Digital media have enabled the access to unprecedented literary knowledge. Authors, readers, and scholars are now able to discover and share an increasing amount of information about books and their authors. Notwithstanding, digital archives are still unbalanced: writers from non-Western countries are less represented, and such a condition leads to the perpetration of old forms of discrimination. In this paper, we present the Under-Represented Writers Knowledge Graph (URW-KG), a resource designed to explore and possibly amend this lack of representation by gathering and mapping information about works and authors from Wikidata and three other sources: Open Library, Goodreads, and Google Books. The experiments based on KG embeddings showed that the integrated information encoded in the graph allows scholars and users to be more easily exposed to non-Western literary works and authors with respect to Wikidata alone. This opens to the development of fairer and effective tools for author discovery and exploration.
translated by 谷歌翻译
尽管传记在语义网络中广泛传播,但自动提取传记事件的资源和方法受到限制。这种限制减少了结构化的,可读的传记信息的数量,尤其是关于属于代表性不足的人的人的数量。我们的工作通过为生活事件的语义注释提供一组准则来挑战这一限制。该准则旨在与现有的ISO语义注释标准可互操作:ISO-TIMEML(ISO-24617-1)和SEMAF(ISO-24617-4)。通过代表不足的作家的维基百科传记的注释任务,即非西方国家,移民或属于少数民族的作者,对准则进行了测试。 4个注释者注释了1,000个句子,平均通知者协议为0.825。由此产生的语料库被映射在Ontonotes上。这样的映射允许扩展我们的语料库,表明已经存在现有资源可以用于传记事件提取任务。
translated by 谷歌翻译
Synthetic data generation has recently gained widespread attention as a more reliable alternative to traditional data anonymization. The involved methods are originally developed for image synthesis. Hence, their application to the typically tabular and relational datasets from healthcare, finance and other industries is non-trivial. While substantial research has been devoted to the generation of realistic tabular datasets, the study of synthetic relational databases is still in its infancy. In this paper, we combine the variational autoencoder framework with graph neural networks to generate realistic synthetic relational databases. We then apply the obtained method to two publicly available databases in computational experiments. The results indicate that real databases' structures are accurately preserved in the resulting synthetic datasets, even for large datasets with advanced data types.
translated by 谷歌翻译
完全自主移动机器人的现实部署取决于能够处理动态环境的强大的大满贯(同时本地化和映射)系统,其中对象在机器人的前面移动以及不断变化的环境,在此之后移动或更换对象。机器人已经绘制了现场。本文介绍了更换式SLAM,这是一种在动态和不断变化的环境中强大的视觉猛烈抨击的方法。这是通过使用与长期数据关联算法结合的贝叶斯过滤器来实现的。此外,它采用了一种有效的算法,用于基于对象检测的动态关键点过滤,该对象检测正确识别了不动态的边界框中的特征,从而阻止了可能导致轨道丢失的功能的耗竭。此外,开发了一个新的数据集,其中包含RGB-D数据,专门针对评估对象级别的变化环境,称为PUC-USP数据集。使用移动机器人,RGB-D摄像头和运动捕获系统创建了六个序列。这些序列旨在捕获可能导致跟踪故障或地图损坏的不同情况。据我们所知,更换 - 峰是第一个对动态和不断变化的环境既有坚固耐用的视觉大满贯系统,又不假设给定的相机姿势或已知地图,也能够实时运行。使用基准数据集对所提出的方法进行了评估,并将其与其他最先进的方法进行了比较,证明是高度准确的。
translated by 谷歌翻译
远程运行是一种广泛采用的策略,用于控制需要高度灵巧运动和关键高级智力的复杂任务的机器人操纵器。经典的远程操作方案基于操纵杆的控制,或基于更直观的接口,这些界面将用户臂运动直接映射到一个机器人臂的运动中。当执行给定任务需要可重新配置的多个机器人ARM系统时,这些方法会限制。实际上,两个或多个机器人臂的同时进行近距离运行可以扩展操纵单元的工作空间,或增加其总有效载荷或提供其他优势。在可重新配置的多臂系统的不同阶段中,每个机器人可以充当独立的手臂,也可以充当一对合作的手臂,或者是虚拟大型机器人手的手指之一。该手稿提出了一个新型的远程注射框架,可以使个人和组合任何数量的机器人臂控制。多亏了设计的控制体系结构,人类操作员可以直观地选择提出的控制方式和操纵器,以使任务方便地通过用户界面执行。此外,通过Tele-Tele-Inverance范式,该系统可以通过让机器人模仿人类操作员的手臂阻抗和位置参考来解决需要物理互动的复杂任务。拟议的框架已通过8个主题,控制4个弗兰卡·埃米卡·熊猫机器人,并用7多杆执行远程触发任务。实验的定性结果向我们展示了我们框架的有希望的适用性。
translated by 谷歌翻译
密切的人类机器人互动(HRI),尤其是在工业场景中,已经对结合人类和机器人技能的优势进行了广泛的研究。对于有效的HRI,应质疑当前可用的人机通信媒体或工具的有效性,并应探讨新的交流方式。本文提出了一个模块化体系结构,允许人类操作员通过不同的方式与机器人互动。特别是,我们使用智能手表和平板电脑分别实施了架构来分别处理手势和触摸屏输入。最后,我们在这两种方式之间进行了比较用户体验研究。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
语义细分对于使自动驾驶车辆自动驾驶至关重要,从而使他们能够通过将单个像素分配给已知类别来理解周围环境。但是,它可以根据用户汽车收集的明智数据运行;因此,保护​​客户的隐私成为主要问题。出于类似的原因,最近将联邦学习作为一种新的机器学习范式引入,旨在学习全球模型,同时保留隐私并利用数百万个远程设备的数据。尽管在这个主题上进行了几项努力,但尚未明确解决语义细分中联合学习在迄今为止驾驶的挑战。为了填补这一空白,我们提出了FedDrive,这是一个由三个设置和两个数据集组成的新基准,其中包含了统计异质性和域概括的现实世界挑战。我们通过深入的分析基于联合学习文献的最新算法,将它们与样式转移方法相结合以提高其概括能力。我们证明,正确处理标准化统计数据对于应对上述挑战至关重要。此外,在处理重大外观变化时,样式转移会提高性能。官方网站:https://feddrive.github.io。
translated by 谷歌翻译
数据增强是自然语言处理(NLP)模型的鲁棒性评估的重要组成部分,以及增强他们培训的数据的多样性。在本文中,我们呈现NL-Cogmenter,这是一种新的参与式Python的自然语言增强框架,它支持创建两个转换(对数据的修改)和过滤器(根据特定功能的数据拆分)。我们描述了框架和初始的117个变换和23个过滤器,用于各种自然语言任务。我们通过使用其几个转换来分析流行自然语言模型的鲁棒性来证明NL-Upmenter的功效。基础架构,Datacards和稳健性分析结果在NL-Augmenter存储库上公开可用(\ url {https://github.com/gem-benchmark/nl-augmenter})。
translated by 谷歌翻译
虽然现有的语义分割方法实现令人印象深刻的结果,但它们仍然努力将其模型逐步更新,因为新类别被发现。此外,逐个像素注释昂贵且耗时。本文提出了一种新颖的对语义分割学习弱增量学习的框架,旨在学习从廉价和大部分可用的图像级标签进行新课程。与现有的方法相反,需要从下线生成伪标签,我们使用辅助分类器,用图像级标签培训并由分段模型规范化,在线获取伪监督并逐步更新模型。我们通过使用由辅助分类器生成的软标签来应对过程中的内在噪声。我们展示了我们对Pascal VOC和Coco数据集的方法的有效性,表现出离线弱监督方法,并获得了具有全面监督的增量学习方法的结果。
translated by 谷歌翻译